AI资讯新闻榜单内容搜索-claude 3

网友晒 21 页 PDF 质疑 Grok 3 套壳 Claude，Grok 3 自己承认了！xAI 工程师被喷无能

近日，一位 ID 名为 GpsTracker 的网友在网上爆料称，埃隆·马斯克旗下 xAI 公司最新发布的 Grok 3 人工智能模型存在异常行为——当用户激活其“思考模式”提问时，模型竟自称是竞争对手 Anthropic 公司开发的 Claude 3.5 模型。

来自主题: AI资讯

7932 点击 2025-06-04 11:37

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究！来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架，直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

来自主题: AI技术研报

7958 点击 2025-05-29 10:03

全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

最顶尖的AI模型，做起奥数题来已经和人类相当，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这样的最强模型，做物理题也翻车了，准确率直接被人类专家碾压！

来自主题: AI技术研报

10361 点击 2025-05-28 11:58

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力，结果显示，Claude 3.5 Sonnet表现最佳，人类屈居第四！

来自主题: AI技术研报

10041 点击 2025-05-25 16:22

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

8967 点击 2025-05-25 15:11

可靠的Agent该用哪个模型，LLM多轮对话中的「迷失」现象 |微软最新

微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究，说当前最先进的LLM在多轮对话中表现会大幅下降，平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型（包括Claude 3.7-Sonnet、Deepseek-R1等）在多轮对话中的表现差异，还解析了模型"迷失"的根本原因及有效缓解策略。

来自主题: AI技术研报

8947 点击 2025-05-20 10:16

1/8成本比肩Claude 3.7，Mistral Medium 3来了

用1/8成本比肩Claude 3.7，刚刚，“欧洲OpenAI”Mistral AI发布多模态新模型。

来自主题: AI资讯

11372 点击 2025-05-08 12:03

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

谷歌Gemini 2.5 Pro（I/O版）横空出世，强势登顶LMAreana，斩获文本、视觉、编码三连冠，甚至编程能力全面碾压Claude 3.7，地表最强编码模型诞生。

来自主题: AI资讯

8885 点击 2025-05-07 14:32

AI对战略咨询公司的影响，及其应对（以麦肯锡、BCG 为例）

自 OpenAI 发布 chatgpt 以来，业内除了技术公司、媒体公司比较关注其进展以外，还有一个行业比较关注，那就是战略咨询行业。尤其是最近 GPT-4o、Claude 3.7 Sonnet 为代表的最新大模型在数据分析、内容生成、编码和复杂推理方面展现出强大能力，与战略咨询工作的核心环节高度相关。

来自主题: AI资讯

10611 点击 2025-04-28 08:58

连Claude 3.5都败下阵来，大语言模型能否定位软件服务的故障根因？

论文的第一作者是香港中文大学（深圳）数据科学学院三年级博士生徐俊杰龙，指导老师为香港中文大学（深圳）数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。

来自主题: AI技术研报

7729 点击 2025-04-22 17:58

AI资讯新闻榜单内容搜索-claude 3

网友晒 21 页 PDF 质疑 Grok 3 套壳 Claude，Grok 3 自己承认了！xAI 工程师被喷无能

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

可靠的Agent该用哪个模型，LLM多轮对话中的「迷失」现象 |微软最新

1/8成本比肩Claude 3.7，Mistral Medium 3来了

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

AI对战略咨询公司的影响，及其应对（以麦肯锡、BCG 为例）

连Claude 3.5都败下阵来，大语言模型能否定位软件服务的故障根因？

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7